Justificación: el presente analisis estadístico propone estimar el monto a invertir por un inversionista, teniendo en cuenta las variables que componen la base con la información recopilada de su interacción con el producto.
Con la anterior información se puede ser mas especifico con el portafolio que se le ofrezca a un inversionistas actual y potencial, de cara a generar una diversificación del uso de las alternativas de inversión en personas que han tomado cercanía con la oferta de valor de a2censo.
knitr::opts_chunk$set(echo = F)
knitr::opts_chunk$set(echo = F)
library(readxl)
library(ggplot2)
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(fBasics)
## Loading required package: timeDate
## Loading required package: timeSeries
library(MASS)
##
## Attaching package: 'MASS'
## The following object is masked from 'package:dplyr':
##
## select
library(corrgram)
library(gclus)
## Loading required package: cluster
library(descr)
library(GGally)
## Registered S3 method overwritten by 'GGally':
## method from
## +.gg ggplot2
library(agricolae)
##
## Attaching package: 'agricolae'
## The following objects are masked from 'package:timeDate':
##
## kurtosis, skewness
library(plotly)
##
## Attaching package: 'plotly'
## The following object is masked from 'package:MASS':
##
## select
## The following object is masked from 'package:timeSeries':
##
## filter
## The following object is masked from 'package:ggplot2':
##
## last_plot
## The following object is masked from 'package:stats':
##
## filter
## The following object is masked from 'package:graphics':
##
## layout
library(fdth)
##
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
##
## sd, var
library(caTools)
library(ROCR)
library(pROC)
## Type 'citation("pROC")' for a citation.
##
## Attaching package: 'pROC'
## The following object is masked from 'package:fdth':
##
## var
## The following objects are masked from 'package:stats':
##
## cov, smooth, var
library(car)
## Loading required package: carData
##
## Attaching package: 'car'
## The following object is masked from 'package:fBasics':
##
## densityPlot
## The following object is masked from 'package:dplyr':
##
## recode
library(foreign)
library(apaTables)
library(PerformanceAnalytics)
## Loading required package: xts
## Loading required package: zoo
##
## Attaching package: 'zoo'
## The following object is masked from 'package:timeSeries':
##
## time<-
## The following objects are masked from 'package:base':
##
## as.Date, as.Date.numeric
##
## Attaching package: 'xts'
## The following objects are masked from 'package:dplyr':
##
## first, last
##
## Attaching package: 'PerformanceAnalytics'
## The following objects are masked from 'package:agricolae':
##
## kurtosis, skewness
## The following objects are masked from 'package:timeDate':
##
## kurtosis, skewness
## The following object is masked from 'package:graphics':
##
## legend
library(psych)
##
## Attaching package: 'psych'
## The following object is masked from 'package:car':
##
## logit
## The following object is masked from 'package:fBasics':
##
## tr
## The following object is masked from 'package:timeSeries':
##
## outlier
## The following objects are masked from 'package:ggplot2':
##
## %+%, alpha
library(corrr)
library(igraph)
##
## Attaching package: 'igraph'
## The following object is masked from 'package:plotly':
##
## groups
## The following object is masked from 'package:agricolae':
##
## similarity
## The following objects are masked from 'package:gclus':
##
## diameter, star
## The following objects are masked from 'package:dplyr':
##
## as_data_frame, groups, union
## The following objects are masked from 'package:stats':
##
## decompose, spectrum
## The following object is masked from 'package:base':
##
## union
library(corrgram)
library(gclus)
library(GGally)
library(gvlma)
Esta variable agrupa el conjunto de actividades productivas o comerciales que reúnen una serie de características similares en relación con una o más campañas, es decir, son negocios que cuentan con una naturaleza común. Mediante el siguiente análisis de frecuencias, se busca determinar cual sector de campaña cuenta con una mayor aceptación por parte de los inversionista
| SectorCampaña_ | Freq | porcentaje | cum_frequencia | cum_porcentaje |
|---|---|---|---|---|
| Agroindustria | 77 | 0.0029938 | 77 | 0.0029938 |
| Alcantarillado | 610 | 0.0237170 | 687 | 0.0267107 |
| Alojamiento Y Servicios De Comida | 2593 | 0.1008165 | 3280 | 0.1275272 |
| Automotriz | 1092 | 0.0424572 | 4372 | 0.1699844 |
| Comercio al por mayor | 2723 | 0.1058709 | 7095 | 0.2758554 |
| Comercio Al Por Menor | 2307 | 0.0896967 | 9402 | 0.3655521 |
| Educación | 125 | 0.0048600 | 9527 | 0.3704121 |
| Entretenimiento | 155 | 0.0060264 | 9682 | 0.3764386 |
| Industrías Creativas Y Culturales | 104 | 0.0040435 | 9786 | 0.3804821 |
| Información y Comunicaciones | 1941 | 0.0754666 | 11727 | 0.4559487 |
| Inmobiliarias | 2324 | 0.0903577 | 14051 | 0.5463064 |
| Investigación y Ciencias | 1531 | 0.0595257 | 15582 | 0.6058320 |
| Manufactura | 4166 | 0.1619751 | 19748 | 0.7678072 |
| Salud | 569 | 0.0221229 | 20317 | 0.7899300 |
| Saneamiento Ambiental | 714 | 0.0277605 | 21031 | 0.8176905 |
| Servicios Administrativos | 2532 | 0.0984448 | 23563 | 0.9161353 |
| Servicios Domésticos | 142 | 0.0055210 | 23705 | 0.9216563 |
| Servicios Energéticos | 1033 | 0.0401633 | 24738 | 0.9618196 |
| Transporte y Almacenamiento | 982 | 0.0381804 | 25720 | 1.0000000 |
Podemos evidenciar que las campañas de inversión que mayor tracción de inversionistas tuvieron, se encontraban asociadas con los sectores económicos de Manufactura (n= 4166), Comercio al por mayor (n= 2724)y Alojamiento y servicios de comida (n = 2593), por otro lado las campañas asociadas a sectores económicos de:Agroindustria (n=77), industrias creativas (n=104) y educación (n=124)fueron los 3 sectores económicos que menor tracción de numero de inversionistas tuvieron.
Esta variable está relacionada con las empresas o compañías que solicitan financiación para la ejecución de proyectos dentro de un sector económico en particular. Con la siguiente exploración se busca determinar la frecuencia de los lanzamientos de financiación que realizan cada una de las campañas inscritas al crowfunding de a2censo.
| Campaña | Freq | porcentaje | cum_frequencia | cum_porcentaje | |
|---|---|---|---|---|---|
| 72 | Resuelve tu deuda 2.0 | 1531 | 0.0595257 | 17802 | 0.6921462 |
| 74 | RobinFood 2.0 | 1383 | 0.0537714 | 19656 | 0.7642302 |
| 41 | Habi.co | 1272 | 0.0494557 | 11866 | 0.4613530 |
| 7 | Alife Health | 1062 | 0.0412908 | 1932 | 0.0751166 |
| 21 | De Celuventas a Refurbi | 947 | 0.0368196 | 6023 | 0.2341757 |
| 37 | Genersa | 871 | 0.0338647 | 9583 | 0.3725894 |
| 32 | Elepha 2.0 | 777 | 0.0302100 | 8034 | 0.3123639 |
| 89 | T4 tea for you | 742 | 0.0288491 | 23167 | 0.9007387 |
| 38 | Geofuturo | 714 | 0.0277605 | 10297 | 0.4003499 |
| 91 | Tower One Wireless | 674 | 0.0262053 | 23990 | 0.9327372 |
| 80 | Servisépticos | 610 | 0.0237170 | 20879 | 0.8117807 |
| 18 | Coaspharma | 507 | 0.0197123 | 4724 | 0.1836703 |
| 47 | Lentesplus.com | 502 | 0.0195179 | 13508 | 0.5251944 |
| 73 | Robin Foods | 471 | 0.0183126 | 18273 | 0.7104588 |
| 92 | Trading solutions | 467 | 0.0181571 | 24457 | 0.9508942 |
| 88 | T4 Tea For U | 370 | 0.0143857 | 22425 | 0.8718896 |
| 10 | Aoxlab | 366 | 0.0142302 | 2733 | 0.1062597 |
| 33 | FAW Trucks | 354 | 0.0137636 | 8388 | 0.3261275 |
| 11 | Asadores El Barril | 348 | 0.0135303 | 3081 | 0.1197900 |
| 46 | Leal | 342 | 0.0132970 | 13006 | 0.5056765 |
| 43 | La Lonchera | 339 | 0.0131804 | 12262 | 0.4767496 |
| 12 | Asfrio | 333 | 0.0129471 | 3414 | 0.1327372 |
| 44 | La Mayorista 2.0 | 329 | 0.0127916 | 12591 | 0.4895412 |
| 71 | Resuelve Tu Deuda en casa. | 314 | 0.0122084 | 16271 | 0.6326205 |
| 82 | Smoking Burgers | 275 | 0.0106921 | 21351 | 0.8301322 |
| 101 | Verdeex | 274 | 0.0106532 | 25720 | 1.0000000 |
| 50 | Mayorista | 267 | 0.0103810 | 14061 | 0.5466952 |
| 8 | ALINORTE | 259 | 0.0100700 | 2191 | 0.0851866 |
| 28 | Ecosembrar | 259 | 0.0100700 | 6985 | 0.2715785 |
| 16 | Celuventas | 257 | 0.0099922 | 4030 | 0.1566874 |
| 83 | Staffing on Demand en expansión. | 252 | 0.0097978 | 21603 | 0.8399300 |
| 94 | Tu Orden | 233 | 0.0090591 | 24783 | 0.9635692 |
| 49 | Mascotas Bichos 2.0 | 232 | 0.0090202 | 13794 | 0.5363142 |
| 19 | Coltrade | 231 | 0.0089813 | 4955 | 0.1926516 |
| 2 | 93 Luxury Suites | 228 | 0.0088647 | 337 | 0.0131026 |
| 60 | Parrilla Libanesa | 224 | 0.0087092 | 15120 | 0.5878694 |
| 6 | ALFALEGACY | 223 | 0.0086703 | 870 | 0.0338258 |
| 81 | SMART | 197 | 0.0076594 | 21076 | 0.8194401 |
| 78 | Satlock | 189 | 0.0073484 | 20125 | 0.7824650 |
| 17 | CKT Global | 187 | 0.0072706 | 4217 | 0.1639580 |
| 40 | Go Green 2da campaña | 178 | 0.0069207 | 10594 | 0.4118974 |
| 9 | Andamas | 176 | 0.0068429 | 2367 | 0.0920295 |
| 51 | Minca Electric – Definiendo la nueva era de movilidad alternativa | 170 | 0.0066096 | 14231 | 0.5533048 |
| 15 | Bitwan | 169 | 0.0065708 | 3773 | 0.1466952 |
| 100 | Ventur Group | 167 | 0.0064930 | 25446 | 0.9893468 |
| 86 | Superlikers | 165 | 0.0064152 | 21998 | 0.8552877 |
| 67 | Proyemetal | 164 | 0.0063764 | 15765 | 0.6129471 |
| 85 | Super Karts Kids | 155 | 0.0060264 | 21833 | 0.8488725 |
| 23 | De Una Grúas | 150 | 0.0058320 | 6257 | 0.2432737 |
| 90 | Tiendapp | 149 | 0.0057932 | 23316 | 0.9065319 |
| 26 | Distritornillos | 146 | 0.0056765 | 6598 | 0.2565319 |
| 79 | Sensum | 144 | 0.0055988 | 20269 | 0.7880638 |
| 34 | Ferroeléctricos Medellín | 139 | 0.0054044 | 8527 | 0.3315319 |
| 56 | Nominapp | 139 | 0.0054044 | 14683 | 0.5708787 |
| 25 | Digident | 136 | 0.0052877 | 6452 | 0.2508554 |
| 27 | Diveco | 128 | 0.0049767 | 6726 | 0.2615086 |
| 29 | Edex | 125 | 0.0048600 | 7110 | 0.2764386 |
| 20 | Coss | 121 | 0.0047045 | 5076 | 0.1973561 |
| 36 | Fundación Junfe | 121 | 0.0047045 | 8712 | 0.3387247 |
| 13 | Aurelio Pizzería | 120 | 0.0046656 | 3534 | 0.1374028 |
| 5 | Alegra POS (Punto de Venta) | 119 | 0.0046267 | 647 | 0.0251555 |
| 39 | Go Green | 119 | 0.0046267 | 10416 | 0.4049767 |
| 64 | Producción margarina de untar hecha con aceite de oliva extra virgen | 118 | 0.0045879 | 15446 | 0.6005443 |
| 54 | Mister Tru 2da campaña | 114 | 0.0044323 | 14486 | 0.5632193 |
| 98 | Velonet 3ª Campaña | 113 | 0.0043935 | 25196 | 0.9796267 |
| 75 | SAC logística | 112 | 0.0043546 | 19768 | 0.7685848 |
| 1 | 8Bits | 109 | 0.0042379 | 109 | 0.0042379 |
| 77 | Saludtools | 109 | 0.0042379 | 19936 | 0.7751166 |
| 96 | Velonet | 109 | 0.0042379 | 24975 | 0.9710342 |
| 97 | Velonet 2ª Campaña | 108 | 0.0041991 | 25083 | 0.9752333 |
| 4 | Ad In Publicidad | 104 | 0.0040435 | 528 | 0.0205288 |
| 65 | Proton IoT | 103 | 0.0040047 | 15549 | 0.6045490 |
| 93 | Transporte y logística que transforma sueños en objetivos cumplidos. | 93 | 0.0036159 | 24550 | 0.9545101 |
| 62 | PlusAseo | 91 | 0.0035381 | 15277 | 0.5939736 |
| 31 | Ele de Colombia | 88 | 0.0034215 | 7257 | 0.2821540 |
| 3 | Abriendo el sol a Colombia | 87 | 0.0033826 | 424 | 0.0164852 |
| 70 | Red de Accesorios. Salud visual | 85 | 0.0033048 | 15957 | 0.6204121 |
| 22 | De Raíz | 84 | 0.0032659 | 6107 | 0.2374417 |
| 57 | Oasis | 84 | 0.0032659 | 14767 | 0.5741446 |
| 95 | Vain | 83 | 0.0032271 | 24866 | 0.9667963 |
| 99 | Vendty | 83 | 0.0032271 | 25279 | 0.9828538 |
| 59 | Panela Oro del Valle | 77 | 0.0029938 | 14896 | 0.5791602 |
| 52 | MISOL | 75 | 0.0029160 | 14306 | 0.5562208 |
| 84 | SUMMA experto en importación y distribución de tuberías y derivados | 75 | 0.0029160 | 21678 | 0.8428460 |
| 45 | La Parla WorkCafé | 73 | 0.0028383 | 12664 | 0.4923795 |
| 14 | Beagle Group | 70 | 0.0027216 | 3604 | 0.1401244 |
| 68 | Queo Access, ingresos inteligentes para la prevención del COVID | 68 | 0.0026439 | 15833 | 0.6155910 |
| 53 | Mister Tru | 66 | 0.0025661 | 14372 | 0.5587869 |
| 61 | Pirani | 66 | 0.0025661 | 15186 | 0.5904355 |
| 35 | Financia una oportunidad para la mujer rural colombiana | 64 | 0.0024883 | 8591 | 0.3340202 |
| 24 | Desarrollo de una placa reabsorbible para uso en cirugía reconstructiva | 59 | 0.0022939 | 6316 | 0.2455677 |
| 30 | EDS Puerto Velero | 59 | 0.0022939 | 7169 | 0.2787325 |
| 76 | Sajú | 59 | 0.0022939 | 19827 | 0.7708787 |
| 55 | MONTERRA | 58 | 0.0022551 | 14544 | 0.5654743 |
| 42 | Imagine Apps | 57 | 0.0022162 | 11923 | 0.4635692 |
| 87 | Syscom | 57 | 0.0022162 | 22055 | 0.8575039 |
| 48 | Mascotas Bichos | 54 | 0.0020995 | 13562 | 0.5272939 |
| 58 | Orso to go | 52 | 0.0020218 | 14819 | 0.5761664 |
| 66 | ProveDeluxe | 52 | 0.0020218 | 15601 | 0.6065708 |
| 63 | Plusaseo Hogar | 51 | 0.0019829 | 15328 | 0.5959565 |
| 69 | Recology | 39 | 0.0015163 | 15872 | 0.6171073 |
Si bien esta variable no es tan relevante para el analisis de la investigación puesto que la cantidad de campañas y empresas financiadas es muy amplia y cada uno tiene un comportamiento específico, podemos encontrar tan solo hay 4 campañas que lograron reunir más de 1000 inversionistas, entre ellas se encuentra a) Resuelve tu deuda 2.0(n=1531), b) RobinFood 2.0 (n=1383), c) Habi.co, (n=1135) y d) Alife Health, (n=1062) y por tanto podríamos concluír que son las 4 campañas con mayor tracción, aspectos que pueden estar relacionados con la tasa ofertada, y otras variables no medidas como la inversion en publicidad que hicieron estas compañías de su campaña
Con esta variable se buscar conocer el grado de participación de los inversionistas así como de las campañas en el territorio colombiano.
| Departamento | Freq | porcentaje | cum_frequencia | cum_porcentaje | |
|---|---|---|---|---|---|
| 4 | Bogotá | 15026 | 0.5842146 | 19715 | 0.7665241 |
| 1 | Antioquia | 4207 | 0.1635692 | 4207 | 0.1635692 |
| 28 | Valle del Cauca | 1534 | 0.0596423 | 25720 | 1.0000000 |
| 14 | Cundinamarca | 1260 | 0.0489891 | 22207 | 0.8634137 |
| 25 | Santander | 688 | 0.0267496 | 23957 | 0.9314541 |
| 3 | Atlantico | 477 | 0.0185459 | 4689 | 0.1823095 |
| 7 | Caldas | 346 | 0.0134526 | 20589 | 0.8005054 |
| 6 | Boyaca | 323 | 0.0125583 | 20243 | 0.7870529 |
| 23 | Risaralda | 295 | 0.0114697 | 23266 | 0.9045879 |
| 22 | Quindio | 230 | 0.0089425 | 22971 | 0.8931182 |
| 5 | Bolivar | 205 | 0.0079705 | 19920 | 0.7744946 |
| 27 | Tolima | 182 | 0.0070762 | 24186 | 0.9403577 |
| 20 | Norte de Santander | 164 | 0.0063764 | 22736 | 0.8839813 |
| 19 | Narino | 114 | 0.0044323 | 22572 | 0.8776050 |
| 15 | Huila | 113 | 0.0043935 | 22320 | 0.8678072 |
| 10 | Cauca | 102 | 0.0039658 | 20771 | 0.8075816 |
| 18 | Meta | 100 | 0.0038880 | 22458 | 0.8731726 |
| 13 | Cordoba | 97 | 0.0037714 | 20947 | 0.8144246 |
| 11 | Cesar | 78 | 0.0030327 | 20849 | 0.8106143 |
| 9 | Casanare | 55 | 0.0021384 | 20669 | 0.8036159 |
| 26 | Sucre | 47 | 0.0018274 | 24004 | 0.9332815 |
| 17 | Magdalena | 30 | 0.0011664 | 22358 | 0.8692846 |
| 8 | Caqueta | 25 | 0.0009720 | 20614 | 0.8014774 |
| 16 | La Guajira | 8 | 0.0003110 | 22328 | 0.8681182 |
| 2 | Arauca | 5 | 0.0001944 | 4212 | 0.1637636 |
| 21 | Putumayo | 5 | 0.0001944 | 22741 | 0.8841757 |
| 24 | San Andres y Providencia | 3 | 0.0001166 | 23269 | 0.9047045 |
| 12 | Choco | 1 | 0.0000389 | 20850 | 0.8106532 |
De otro lado, si bien es esperado que la mayor participación de inversionistas se encuentren ubicados en Bogotá (n= 15032), resulta llamativo observar las participaciones que se tienen en otros departamentos como Antioquia (n= 4207) , Valle del cauca (n= 1534), cundinamarca (n= 1260) santander (n= 688) y atlantico (n= 477).
Esta variable categórica es muy relevante para nuestro análisis estadístico, toda vez que nos permite conocer de primera mano los sectores económicos de los inversionistas interesados en las campañas publicitarias que ofrece a2censo, así como la capacidad de inversión para financiar los distintos proyectos que ofrece la compañía.
| SectorEconomico | Freq | porcentaje | cum_frequencia | cum_porcentaje | |
|---|---|---|---|---|---|
| 20 | PERSONA NATURAL | 11467 | 0.4458398 | 23261 | 0.9043935 |
| 14 | INVESTIGACIÓN Y CIENCIAS | 4893 | 0.1902411 | 10784 | 0.4192846 |
| 12 | INFORMACIÓN Y COMUNICACIONES | 2672 | 0.1038880 | 5729 | 0.2227449 |
| 25 | SERVICIOS ADMINISTRATIVOS | 1337 | 0.0519829 | 25314 | 0.9842146 |
| 9 | EDUCACIÓN | 938 | 0.0364697 | 2484 | 0.0965785 |
| 23 | SALUD | 711 | 0.0276439 | 23976 | 0.9321928 |
| 7 | COMERCIO AL POR MENOR | 583 | 0.0226672 | 1236 | 0.0480560 |
| 17 | MANUFACTURA | 552 | 0.0214619 | 11398 | 0.4431571 |
| 10 | FINANCIERO | 403 | 0.0156687 | 2887 | 0.1122473 |
| 28 | TRANSPORTE Y ALMACENAMIENTO | 318 | 0.0123639 | 25720 | 1.0000000 |
| 8 | CONSTRUCCIÓN | 310 | 0.0120529 | 1546 | 0.0601089 |
| 18 | MINERÍA | 277 | 0.0107698 | 11675 | 0.4539269 |
| 3 | AGROINDUSTRIA | 170 | 0.0066096 | 325 | 0.0126361 |
| 11 | INDUSTRÍAS CREATIVAS Y CULTURALES | 170 | 0.0066096 | 3057 | 0.1188569 |
| 13 | INMOBILIARIAS | 162 | 0.0062986 | 5891 | 0.2290435 |
| 6 | COMERCIO AL POR MAYOR | 157 | 0.0061042 | 653 | 0.0253888 |
| 2 | ADMINISTRACIÓN PÚBLICA Y DEFENSA | 148 | 0.0057543 | 155 | 0.0060264 |
| 19 | OTROS SERVICIOS | 119 | 0.0046267 | 11794 | 0.4585537 |
| 4 | ALOJAMIENTO Y SERVICIOS DE COMIDA | 114 | 0.0044323 | 439 | 0.0170684 |
| 27 | SERVICIOS ENERGÉTICOS | 66 | 0.0025661 | 25402 | 0.9876361 |
| 5 | AUTOMOTRIZ | 57 | 0.0022162 | 496 | 0.0192846 |
| 15 | MANTENIMIENTO DE EQUIPOS | 57 | 0.0022162 | 10841 | 0.4215008 |
| 26 | SERVICIOS DOMÉSTICOS | 22 | 0.0008554 | 25336 | 0.9850700 |
| 1 | ACUEDUCTO | 7 | 0.0002722 | 7 | 0.0002722 |
| 16 | MANTENIMIENTO Y CUIDADO TEXTIL | 5 | 0.0001944 | 10846 | 0.4216952 |
| 21 | REPARACIÓN DE ACCESORIOS PARA EL HOGAR | 2 | 0.0000778 | 23263 | 0.9044712 |
| 22 | REPARACIÓN DE ENSERES | 2 | 0.0000778 | 23265 | 0.9045490 |
| 24 | SEGUROS DE SERVICIOS SOCIALES DE RIESGOS PROFESIONALES | 1 | 0.0000389 | 23977 | 0.9322317 |
## Warning: 'pie' objects don't have these attributes: 'autosize'
## Valid attributes include:
## '_deprecated', 'automargin', 'customdata', 'customdatasrc', 'direction', 'dlabel', 'domain', 'hole', 'hoverinfo', 'hoverinfosrc', 'hoverlabel', 'hovertemplate', 'hovertemplatesrc', 'hovertext', 'hovertextsrc', 'ids', 'idssrc', 'insidetextfont', 'insidetextorientation', 'label0', 'labels', 'labelssrc', 'legendgroup', 'legendgrouptitle', 'legendrank', 'marker', 'meta', 'metasrc', 'name', 'opacity', 'outsidetextfont', 'pull', 'pullsrc', 'rotation', 'scalegroup', 'showlegend', 'sort', 'stream', 'text', 'textfont', 'textinfo', 'textposition', 'textpositionsrc', 'textsrc', 'texttemplate', 'texttemplatesrc', 'title', 'transforms', 'type', 'uid', 'uirevision', 'values', 'valuessrc', 'visible', 'key', 'set', 'frame', 'transforms', '_isNestedKey', '_isSimpleKey', '_isGraticule', '_bbox'
La mayor proporsion de inversionistas autodenominan su actividad económica como persona natural (n= 11471), siendo que es la opcion mas entendible para usuarios que no conocen estas clasificaciones económicas, no obtante resulta llamativo observar la participacion de personas que se dedican a actividades de investigación y ciencias (n= 4893), información y comunicaciones (n= 2672) y servicios administrativos (n= 1337) en donde podemos encontrar posiblemente un proporsion de inversionistas asalariados que usan sus excedentes de dinero en inversiones en a2censo.
Esta variable categórica es usada por a2censo para segmentar la población que aplica a las distintas campañas de inversión en función del interés y nivel de experticia en los actuales ecosistemas de inversión y financiación.
| TipoInversionista | Freq | porcentaje | cum_frequencia | cum_porcentaje | |
|---|---|---|---|---|---|
| 2 | NO CALIFICADO | 25674 | 0.9982115 | 25720 | 1.0000000 |
| 1 | CALIFICADO | 46 | 0.0017885 | 46 | 0.0017885 |
Por otro lado, podemos encontrar que la proporsion de inversionistas que se autodenominan inversionistas calificados y que han invertido en a2censo es muy baja (n= 46), respecto a los inversionistas no calificados (n= 25680) representando una oportunidad de abordar más a este nicho de inversionistas calificados con este producto y hacer un mayor detalle a su comportamiento de inversión.
Mediante esta variable categórica, a2censo busca conocer la finalidad o el objetivo de inversión de cada uno de los inversionistas, así como la correlación que pueda existir entre estos objetivos y las campañas realizadas, para brindar mejores opciones por parte de la compañía y por consiguiente acrecentar la motivación y confianza de los clientes.
| Proposito | Freq | porcentaje | cum_frequencia | cum_porcentaje | |
|---|---|---|---|---|---|
| 6 | Rentabilizar portafolio de inversión | 12063 | 0.4690124 | 25720 | 1.0000000 |
| 4 | Diversificar mi portafolio de inversión | 9032 | 0.3511664 | 13198 | 0.5131415 |
| 1 | Apoyar el crecimiento de las empresas | 3027 | 0.1176905 | 3027 | 0.1176905 |
| 2 | Aprender de financiación | 1138 | 0.0442457 | 4165 | 0.1619362 |
| 5 | Hacer parte de la comunidad a2censo - | 459 | 0.0178460 | 13657 | 0.5309876 |
| 3 | Conectarme con posibles aliados | 1 | 0.0000389 | 4166 | 0.1619751 |
De acuerdo a los anteriores analisis podemos evidenciar como la mayoria de inversionistas actuales siguen propósitos de inversión asociados al crecimiento y rentabilidad del dinero y el portafolio de inversión actual (n = 12066); y por otro lado a la diversificación del portafolio de inversion ( n= 9034). No obstante podemos encontrar que hay un 11.8% de la muestra que tienen fines filantrópicos de apoyar el emprendimiento Colombiano (n = 3027).
Mediante esta variable categórica, a2censo realizad una segmentación de los clientes por grupo etario, el cual brinda información de gran importancia a la compañía al momento de lanzar un proyecto de inversión, toda vez que le permite predecir de antemano la población objetivo en función de la edad.
| GrupoEdad | Freq | porcentaje | cum_frequencia | cum_porcentaje | |
|---|---|---|---|---|---|
| 2 | Entre 25 y 35 | 12048 | 0.4684292 | 12886 | 0.5010109 |
| 3 | Entre 35 y 45 | 8786 | 0.3416019 | 21672 | 0.8426128 |
| 4 | Entre 45 y 55 | 2556 | 0.0993779 | 24228 | 0.9419907 |
| 5 | Entre 55 y 65 | 970 | 0.0377138 | 25198 | 0.9797045 |
| 1 | Entre 18 y 24 | 838 | 0.0325816 | 838 | 0.0325816 |
| 6 | Mayores a 65 | 522 | 0.0202955 | 25720 | 1.0000000 |
De acuerdo al anterior analisis, resulta interesante observar la importante participación del 47% de inversionistas jovenes entre 25 y 35 años (n = 12049) y tambien de inversionistas entre 35 y 45 años (n = 8787). No obstante la participacion de inversionistas entre 45 y 55 años (9,9%, n = 2558) no es una participación despreciable dentro del grupo total de inversionistas.
Mediante esta variable categórica se busca agrupar a los clientes inversionistas en razón al nivel de ingresos mensuales y de esta forma tener un proyección del capital disponible al momento de realizar una campaña en particular y, del grupo de interés al cual se puede brindar el lanzamiento del proyecto. De otra parte, para fines de este análisis se proyecta conocer si existe correlación de esta variable con la proyección del monto de inversión.
| GrupoIngresos | Freq | porcentaje | cum_frequencia | cum_porcentaje | |
|---|---|---|---|---|---|
| 1 | Entre 1M y 3M | 7652 | 0.2975117 | 7652 | 0.2975117 |
| 2 | Entre 3M y 5M | 6873 | 0.2672240 | 14525 | 0.5647356 |
| 5 | Superiores a 10M | 5609 | 0.2180793 | 25720 | 1.0000000 |
| 3 | Entre 5M y 7M | 3563 | 0.1385303 | 18088 | 0.7032659 |
| 4 | Entre 7M y 9M | 2023 | 0.0786547 | 20111 | 0.7819207 |
Dentro de los inversionistas de a2censo encontramos inversionistas de tres grupos de rangos salariales predominantes, dentro de los cuales se encuentran en primer lugar una mayor proporsión de inversionistas de ingresos bajos (menor a 1 millon mensual; n= 7652), Inversionistas de ingresos medios - bajos (entre 3 y 5 millones mensuales; n= 6873), Inversionistas de ingresos altos (Superiores a 10 Millones mensuales; n = 5615).No obstante si agruparamos, podemos observar que mas del 50% de inversionistas suelen ser personas con ingresos inferiores a 5 millones de pesos.
Esta variable categórica está con la frecuencia de participación de cada uno de los inversionistas de a2censo en las campañas ofrecidas, el cual se categoriza a cada cliente entre frecuente o no, partiendo de un parámetro de medición previamente establecido por la compañía, ayudando en la toma de decisiones, toda vez que brinda información relevante para predecir el monto de inversión que puede llegar a tener una campaña en particular.
| InvRecurr | Freq | porcentaje | cum_frequencia | cum_porcentaje |
|---|---|---|---|---|
| Inversionista No Recurrente | 17274 | 0.6716174 | 17274 | 0.6716174 |
| Inversionista Recurrente | 8446 | 0.3283826 | 25720 | 1.0000000 |
Podemos evidenciar que la mayoría (67%) de inversionistas no son recurrentes ( n = 17280), Sin embargo existe una alta proporsión de inversionistas recurrentes (33%; n= 8446) que pueden ser de interés en el analisis realizado
A continuación se presenta el analisis variable por variable en lo que respecta a información cuantitativa.
Vale la pena resaltar que dichos analisis se hicieron siguiendo la regla de establecimiento de clases de Sturges que incluye la funcion fdt del paquete fdth.
Este proceso se realizó de esta manera puesto que al realizar los analisis bajo un numero entre 3 y 7 intervalos de clase que fueron probados en cada una de las variables, la distribución de la información no permitía desagregarla en grupos que contribuyeran al analisis y que se representaran de mejor manera, en todo caso la distribución en clases bajo la regla de sturges permitió la mejor visualización de la información cuantitativa.
Mediante esta variable cuantitativa, a2cendo lleva el registro del ingreso mensual reportado por el inversionista en pesos colombianos. Para el presente análisis estadístico fue seleccionada esta variable, con el propósito de establecer el nivel de correlación que existe entre el nivel de ingresos mensuales de cada inversionista con la proyección del monto de inversión.
|
|
## Warning in title(main = main, xlab = xlab, ylab = ylab, ...): "cex.names" is not
## a graphical parameter
## Warning in axis(2, ...): "cex.names" is not a graphical parameter
## Warning in rect(brk[-length(brk)], 0, brk[-1], y, col = col, ...): "cex.names"
## is not a graphical parameter
## Warning in axis(1, at = round(brk, x.round), las = xlas, ...): "cex.names" is
## not a graphical parameter
## Warning in plot.window(...): "cex.names" is not a graphical parameter
## Warning in plot.xy(xy, type, ...): "cex.names" is not a graphical parameter
## Warning in axis(side = side, at = at, labels = labels, ...): "cex.names" is not
## a graphical parameter
## Warning in axis(side = side, at = at, labels = labels, ...): "cex.names" is not
## a graphical parameter
## Warning in box(...): "cex.names" is not a graphical parameter
## Warning in title(...): "cex.names" is not a graphical parameter
## Warning in axis(1, at = round(brk, x.round), las = xlas, ...): "cex.names" is
## not a graphical parameter
## Warning: Ignoring unknown parameters: fill
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
De acuerdo al analisis de frecuencia podemos encontrar que un total de 21.389 que corresponde al 83% de los inversionistas se agrupan en salarios entre $990. 000 y 10.658.656 pesos siendo en rango salarial predominante. No obstante el grupo de inversionistas con ingresos entre 10.658.656 y 20.317.412 de pesos representa el 13% (n = 3345) de la muestra de inversionsitas.
Mediante esta variable cuantitativa, a2cendo lleva el registro del valor en pesos colombianos de los activos que reporta tener el inversionista. Para el presente análisis estadístico fue seleccionada esta variable, con el propósito de establecer el nivel de correlación que existe entre el valor del patrimonio de cada inversionista con la proyección del monto de inversión.
|
|
## Warning in title(main = main, xlab = xlab, ylab = ylab, ...): "cex.names" is not
## a graphical parameter
## Warning in axis(2, ...): "cex.names" is not a graphical parameter
## Warning in rect(brk[-length(brk)], 0, brk[-1], y, col = col, ...): "cex.names"
## is not a graphical parameter
## Warning in axis(1, at = round(brk, x.round), las = xlas, ...): "cex.names" is
## not a graphical parameter
## Warning in plot.window(...): "cex.names" is not a graphical parameter
## Warning in plot.xy(xy, type, ...): "cex.names" is not a graphical parameter
## Warning in axis(side = side, at = at, labels = labels, ...): "cex.names" is not
## a graphical parameter
## Warning in axis(side = side, at = at, labels = labels, ...): "cex.names" is not
## a graphical parameter
## Warning in box(...): "cex.names" is not a graphical parameter
## Warning in title(...): "cex.names" is not a graphical parameter
## Warning in axis(1, at = round(brk, x.round), las = xlas, ...): "cex.names" is
## not a graphical parameter
## Warning: Ignoring unknown parameters: fill
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
Por otro lado en lo que respecta al patrimonio de los inversionistas podemos encontrar que el 36% de los inversionistas que representan un total de 9.514 individuos tienen patrimonios entre 990.000 y 51.833.450. Adicionalmente podemos encontrar que el 21% (n= 5510) de los inversionistas tienen patrimonios entre 51.833.450. y 102.676.901 y una proporsión del 9% de los inversionistas ( n= ) tienen patrimonios entre 102.676.901 y 153.520.352
Mediante esta variable cuantitativa, a2cendo lleva el registro del valor en pesos colombianos invertidos por cada inversionista en cada una de las campañas disponibles. Para el presente análisis estadístico, fue seleccionada como variable dependiente, con el propósito de desarrollar el mejor modelo que permita a la compañía hacer una proyección de la demanda con base en las variables explicativas seleccionadas para este estudio en particular.
|
|
## Warning in title(main = main, xlab = xlab, ylab = ylab, ...): "cex.names" is not
## a graphical parameter
## Warning in axis(2, ...): "cex.names" is not a graphical parameter
## Warning in rect(brk[-length(brk)], 0, brk[-1], y, col = col, ...): "cex.names"
## is not a graphical parameter
## Warning in axis(1, at = round(brk, x.round), las = xlas, ...): "cex.names" is
## not a graphical parameter
## Warning in plot.window(...): "cex.names" is not a graphical parameter
## Warning in plot.xy(xy, type, ...): "cex.names" is not a graphical parameter
## Warning in axis(side = side, at = at, labels = labels, ...): "cex.names" is not
## a graphical parameter
## Warning in axis(side = side, at = at, labels = labels, ...): "cex.names" is not
## a graphical parameter
## Warning in box(...): "cex.names" is not a graphical parameter
## Warning in title(...): "cex.names" is not a graphical parameter
## Warning in axis(1, at = round(brk, x.round), las = xlas, ...): "cex.names" is
## not a graphical parameter
## Warning: Ignoring unknown parameters: fill
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
Respecto al monto invertido podemos encontrar que un 54% de los inversionistas (n= 13.904) invierten en un rango entre 198.000 pesos y 520.187 pesos,encontrandose que este es rango ded ticket mayoritatio de inversión actual. No obstante se encuentra una proporsion del 16% de los inversionistas ( n= 4175) que invierten rangos entre 842.375 pesos y 1.164.563 pesos. Por lo tanto más del 60% de los inversionistas invierten entre 198.000 pesos y 842.375 pesos
Mediante esta variable cuantitativa, a2cendo lleva el registro de la edad de cada inversionista, lo cual es un dato que se debe considerar para el presente análisis estadístico, toda vez que este dato puede afectar el cálculo de la proyección del monto de inversión.
|
|
## Warning in title(main = main, xlab = xlab, ylab = ylab, ...): "cex.names" is not
## a graphical parameter
## Warning in axis(2, ...): "cex.names" is not a graphical parameter
## Warning in rect(brk[-length(brk)], 0, brk[-1], y, col = col, ...): "cex.names"
## is not a graphical parameter
## Warning in axis(1, at = round(brk, x.round), las = xlas, ...): "cex.names" is
## not a graphical parameter
## Warning in plot.window(...): "cex.names" is not a graphical parameter
## Warning in plot.xy(xy, type, ...): "cex.names" is not a graphical parameter
## Warning in axis(side = side, at = at, labels = labels, ...): "cex.names" is not
## a graphical parameter
## Warning in axis(side = side, at = at, labels = labels, ...): "cex.names" is not
## a graphical parameter
## Warning in box(...): "cex.names" is not a graphical parameter
## Warning in title(...): "cex.names" is not a graphical parameter
## Warning in axis(1, at = round(brk, x.round), las = xlas, ...): "cex.names" is
## not a graphical parameter
## Warning: Ignoring unknown parameters: fill
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
De acuerdo al analisis cuantitativo de la variable edad podemos encontrar que la mayor cantidad de inversionistas (22%, n = 5847) se encuentran en un rango de edad entre 31 años y 35 años. No obstante la participación de inversionistas entre los 26 años y 31 años tambien es relevante con un 18% de participación (n= 4741) y tambien el rango comprendido entre los 35 años y 39 años con un 18% de participación (n = 4611) y el rango entre 39 años y 44 años con un 12% de la participación total (n = 3092). Dicho lo anterior los inversionistas entre los 26 años y 45 años suman un total del 59% de participacion de los inversionistas siendo la edad media 35 años.
Mediante esta variable cuantitativa, a2cendo lleva el registro de la edad de cada inversionista, lo cual es un dato que se debe considerar para el presente análisis estadístico, toda vez que este dato puede afectar el cálculo de la proyección del monto de inversión.
|
|
## Warning in title(main = main, xlab = xlab, ylab = ylab, ...): "cex.names" is not
## a graphical parameter
## Warning in axis(2, ...): "cex.names" is not a graphical parameter
## Warning in rect(brk[-length(brk)], 0, brk[-1], y, col = col, ...): "cex.names"
## is not a graphical parameter
## Warning in axis(1, at = round(brk, x.round), las = xlas, ...): "cex.names" is
## not a graphical parameter
## Warning in plot.window(...): "cex.names" is not a graphical parameter
## Warning in plot.xy(xy, type, ...): "cex.names" is not a graphical parameter
## Warning in axis(side = side, at = at, labels = labels, ...): "cex.names" is not
## a graphical parameter
## Warning in axis(side = side, at = at, labels = labels, ...): "cex.names" is not
## a graphical parameter
## Warning in box(...): "cex.names" is not a graphical parameter
## Warning in title(...): "cex.names" is not a graphical parameter
## Warning in axis(1, at = round(brk, x.round), las = xlas, ...): "cex.names" is
## not a graphical parameter
## Warning: Ignoring unknown parameters: fill
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
Respecto a la variable Cantidad de inversiones podemos encontrar que el promedio de inversiones es 12 inversiones. No obstante un 43% (n = 11.099) de los inversionistas han realizado entre 1 y 7 inversiones. un 21% (n = 5.412) han realizado entre 7 y 12 inversiones, un 14% (n= 3.623) han realizado entre 12 y 18 inversiones y un 6% (n = 1.649) han realizado entre 18 y 24 inversiones en la plataforma de a2censo.
|
|
## Warning in title(main = main, xlab = xlab, ylab = ylab, ...): "cex.names" is not
## a graphical parameter
## Warning in axis(2, ...): "cex.names" is not a graphical parameter
## Warning in rect(brk[-length(brk)], 0, brk[-1], y, col = col, ...): "cex.names"
## is not a graphical parameter
## Warning in axis(1, at = round(brk, x.round), las = xlas, ...): "cex.names" is
## not a graphical parameter
## Warning in plot.window(...): "cex.names" is not a graphical parameter
## Warning in plot.xy(xy, type, ...): "cex.names" is not a graphical parameter
## Warning in axis(side = side, at = at, labels = labels, ...): "cex.names" is not
## a graphical parameter
## Warning in axis(side = side, at = at, labels = labels, ...): "cex.names" is not
## a graphical parameter
## Warning in box(...): "cex.names" is not a graphical parameter
## Warning in title(...): "cex.names" is not a graphical parameter
## Warning in axis(1, at = round(brk, x.round), las = xlas, ...): "cex.names" is
## not a graphical parameter
## Warning: Ignoring unknown parameters: fill
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
De acuerdo al analisis de la variable cuantitativa de tasa de adjudicación de la campaña podemos encontrar que hay dos rangos de tasas predominantes en cantidad de inversionistas, el 29.52% (n = 7595) de los inversionistas lograron tasas de adjudicacion de la inversion entre los 0.098 y el 0.102. En siguiente lugar podemos encontrar que el 12% de los inversionistas (n= 3068 )lograron tasas entre el 0.1085 y el 0.1118
#Visualización de las variables cualitativas desde la perspectiva de grupo de ingresos
A continuación el analisis bivariado cualitativo se realizará comparando las variables cualitativas contra la variable de grupo ingresos
## Warning: Use of `BDa2censo$GrupoIngresos` is discouraged. Use `GrupoIngresos`
## instead.
## Warning: Use of `BDa2censo$SectorCampaña` is discouraged. Use `SectorCampaña`
## instead.
A partir del anterior grafico podemos observar la concentración de inversionistas con ingresos superiores a 10M de pesos en sectores económicos de manufactura y servicios administrativos, en los cuales la pacticipacion de personas con ingresos entre 3M y 5M también es relevante.
Resulta interesante observar que en general las empresas financiadas en a2censo que pertenecen al sector de manufactura Servicios administrativos e inmobiliarias, demuestran mayor traccion de inversionistas de alto capital y medio-bajo capital caraterizandose por tener inversionistas con ingresos superiories a 10 millones, y entre 3 y 5 MM
## Warning: Use of `BDa2censo$GrupoIngresos` is discouraged. Use `GrupoIngresos`
## instead.
## Warning: Use of `BDa2censo$Departamento` is discouraged. Use `Departamento`
## instead.
Lejos de encontrar relevante sacar alguna conclusión de acuerdo al rango de ingresos, de manera general podemos observar que departamentos como valle del cauca, Santander, Antioquia son regiones potenciales para atracción de inversionistas en donde a2censo no ha tenido una alta participacion a nivel de marketing o acercamiento con inversionistas. Para el caso de Bogotá podemos evidenciar como la proporsion de inversionistas con rangos de ingresos medios- bajos (3 a 5 millones) y medios altos (superior a 10 millones) es predominante
## Warning: Use of `BDa2censo$GrupoIngresos` is discouraged. Use `GrupoIngresos`
## instead.
## Warning: Use of `BDa2censo$CodEsInversionistaRecurrente` is discouraged. Use
## `CodEsInversionistaRecurrente` instead.
De acuerdo a la anterior grafica podemos observar como los inversionistas recurrentes son en mayor medida personas con ingresos superiores a 10 M, aun cuando hay una proporsion importante de inversionistas recurrentes con ingresos entre 3M y 5M que no son necesariamente de un alto rango de ingresos y aun asi estan viendo una oportunidad recurrente de invertir en el mercado
En el caso de los inversionistas no recurrentes podemos encontrar como una importante proporsion de inversionistas son personas con ingresos entre 1 M a 5 M
## Warning: Use of `BDa2censo$GrupoIngresos` is discouraged. Use `GrupoIngresos`
## instead.
## Warning: Use of `BDa2censo$GrupoEdad` is discouraged. Use `GrupoEdad` instead.
Realizando un analisis bivariado entre el grupo de edad y el rango de ingresos resulta interesante observar la participacion que tienen personas entre rangos de edad de 25 a 35 con ingresos entre 1 a 5 millones de pesos los cuales representan un volumen importante, no obstante volumenes similares se observan el personas con edades entre 35 y 45 años suelen ser en mayor medida personas con ingresos superiores a 10 millones de pesos.
#Visualización de las variables cualitativas desde la perspectiva de grupo de edad
A continuación el analisis bivariado cualitativo se realizará comparando las variables contra la variable de grupo de edad.
## Warning: Use of `BDa2censo$GrupoEdad` is discouraged. Use `GrupoEdad` instead.
## Warning: Use of `BDa2censo$SectorCampaña` is discouraged. Use `SectorCampaña`
## instead.
Podemos observar que de manera general independiente al sector economico de la empresa financiada, los grupos poblacionales que más invierten en a2censo se encuentran entre 25 y 45 años , no obstante se observa una interesante participación de personas mayores de 65 años en las campañas de tecnología , servicios alimenticios y salud
## Warning: Use of `BDa2censo$GrupoEdad` is discouraged. Use `GrupoEdad` instead.
## Warning: Use of `BDa2censo$Departamento` is discouraged. Use `Departamento`
## instead.
No es el grupo poblacional mas grande dentro de la comunidad de inversionistas, no obstante puede ser un grupo de atención las personas entre 45 y 55 años los cuales pueden ser un segmento a desarrollar en Bogotá, Antioquia y valle del cauca
## Warning: Use of `BDa2censo$GrupoEdad` is discouraged. Use `GrupoEdad` instead.
## Warning: Use of `BDa2censo$CodEsInversionistaRecurrente` is discouraged. Use
## `CodEsInversionistaRecurrente` instead.
Del anterior grafico podemos concluir que para el caso de los inversionistas recurrentes hay una leve proporsion mayor de inversionistas en rangos de edades entre 35 y 45 años mientras que esta proporsion mayor de inversionistas no recurrentes de centra en personas entre 25 y 35 años, aun cuando ambos grupos de edades son predominantes estos dos grupos de edades
#Visualización de las variables cualitativas desde la perspectiva de inversionista recurrente
A continuación el analisis bivariado cualitativo se realizará comparando las variables contra la variable de categorización si es un inversionista recurrente o no lo es.
## Warning: Use of `BDa2censo$CodEsInversionistaRecurrente` is discouraged. Use
## `CodEsInversionistaRecurrente` instead.
## Warning: Use of `BDa2censo$SectorCampaña` is discouraged. Use `SectorCampaña`
## instead.
De manera general se puede observar que la cantidad de inversionistas NO recurrentes es mayor para todos los sectores economicos de las empresas financiadas, es una distribución muy acorde al numero de inversionistas sin considerar si es recurrente o no. No obstante llama la atención la proporsion grande que mantienen los inversionistas recurrentes en sector económico de manufactura
## Warning: Use of `BDa2censo$CodEsInversionistaRecurrente` is discouraged. Use
## `CodEsInversionistaRecurrente` instead.
## Warning: Use of `BDa2censo$Departamento` is discouraged. Use `Departamento`
## instead.
Se puede evidencia la alta proporsión de inversionistas recurrentes ubicados en Bogotá
## Warning: Use of `BDa2censo$CodEsInversionistaRecurrente` is discouraged. Use
## `CodEsInversionistaRecurrente` instead.
## Warning: Use of `BDa2censo$GrupoEdad` is discouraged. Use `GrupoEdad` instead.
De la anterior grafica resulta interesante observar que actualmente la cantidad de inversionistas recurrentes son mas en personas entre 25 y 45 años, en donde podemos observar que para este rango de edad entre 25 y 35 años la mayor cantidad de inversionistas son no recurrentes
A continuación se realizará un analisis Bivariado que contemple una de las variables cualitativas de mayor interés del estudio en cuestión, respecto a una de las variables cuantitativas evaluadas.
Del anterior diagrama de cajas y bigotes podemos concluir que aunque desde la correlacion lineal simple no se encuentra correlacion dada la alta dispersion de los datos que se tienen, a nivel del analisis de la media del monto invertido parece comportarse de manera acorde al rango de ingresos en donde podemos observar que a mayor rango de ingresos la media de monto invertido va incrementando proporsionalmente. El unico rango de ingresos que muestra un comportamiento atipico es el de los inversionistas con rangos de ingresos entre 7 y 9 millones mensuales, quienes muestran tener un promedio de inversión mayor incluso que las personas con ingresos mayores a 10 millones.
De manera similar al anterior grafico podemos encontrar que a) la mayor dispersión de datos respecto a ingresos mes se encuentra en las personas con ingresos superiores a 10 millones de pesos, no obstante desde el analisis de medidas de tendencia central y dispersión podemos observar menores desviaciones estandar en lo que respecto a ingresos menores a 10 millones de pesos
De manera similar, la medida de tendencia central es acorde a la conclusión de que un mayor promedio de patrimonio reportado es acorde a un mayor rango de ingresos, no obstante la dispersión no permitiría generalizar esta observación para todos los sujetos encontrandose sujetos con alto patrimonio en ingresos entre 1 y 7 millones, lo cual puede hablar de la calidad de la información que están diligenciando los inversionistas
De acuerdo con el comportamiento que muchas veces se ha observado en las estadisticas Nacionales podemos observar que a mayor edad el promedio de ingresos es mayor encontrandose que el promedio de edad de nuestros inversionistas se encuentra en mayor medida entre los 30 y 40 ños
Si bien hay outliers en todos los rangos de ingresos, desde la tendencia central podemos ver que el mayor foco de inversionistas recurrentes se encuentra en personas con ingresos entre 7 a 10 millones de pesos
#2. Analisis desde el tipo de inversionista (Recurrente o no Recurrente)
Desde el promedio podemos concluir que los inversionistas NO recurrentes invierten en promedio los mismos montos que inversionistas recurrentes, no obtante la dispersión de los datos no permite encontrar dicha relacion
Los inversionistas recurrentes pueden llegar a tener un promedio de ingresos levemente mayor a los inversionistas no recurrentes
Los inversionistas Recurrentes llegan a tener un promedio de patrimonio superior, aun cuando hay personas consideradas inversionistas no recurrentes con un muy alto nivel de patrimonio
Los inversionistas recurrentes tiene un promedio de edad mayor, lo cual puede estar asociado con la siguiente grafica en donde observamos que en este rango de edad dichas inversiones recurrentes pueden estar asociadas con propositos de inversión como diversificar portafolio, aprender de financiación o sencillamente rentabilidad
Aqui podemos observar que no se evidencia alguna relación entre la edad y el propósito, es decir que tanto personas jovenes como viejas se distribuyen entre los diferentes propósitos de inversión.
Resulta interesante identificar que el promedio de numero de inversiones es superior respecto a propósitos de inversion asociados a la diversificación, por el contrario aquellos que han invertido con objetivos de conexión con otros posibles aliados son en promedio menos cantidades de inversiones
Llama la atención observar que en general el promedio del monto invertido es mayor en personas con propósitos de diversificar el portafolio de inversión, en donde puede haber una mayor posibilidad de profesionalizar al inversionista.
A continuación se realizará un analisis Multivariado que contemple dos de las variables cualitativas de mayor interés del estudio en cuestión, respecto a las variables cuantitativas evaluadas que permiten entender el comportamiento de inversión. Dichas variables son el monto invertido y la recurrencia de inversión
##
## Attaching package: 'tidyr'
## The following object is masked from 'package:igraph':
##
## crossing
## `summarise()` has grouped output by 'Propósito'. You can override using the
## `.groups` argument.
Del anterior grafico podemos observar como de manera general el promedio de monto invertido incrementa con el rango de edad, en donde podemos observar que los mayores montos promedios invertidos concuerdan con un interés de diversificar el portafolio de inversión en personas mayores de 55 años
## `summarise()` has grouped output by 'Propósito'. You can override using the
## `.groups` argument.
Respecto a la cantidad de inversiones realizadas resulta llamativo observar que personas entre 55 y 65 años tienen un proposito de afiliación a la comunidad de a2censo y en general son las personas con mayor recurrencia de inversiones desde los datos promedio de inversiones realizadas
## `summarise()` has grouped output by 'Propósito'. You can override using the
## `.groups` argument.
Desde los valores promedio de monto invertido resulta llamativo observar que los montos de inversión incrementan a medida que los rangos salariales tambien incrementan
## `summarise()` has grouped output by 'Propósito'. You can override using the
## `.groups` argument.
Por otro lado si se analizan los rangos de ingresos y propósitos a la luz del promedio de inversiones realizadas podemos ver como personas con mayores ingresos y con interés de diversificar el portafolio de inversion son quienes mas inversiones recurrentes realizan. No obstante hay un grupo de personas de bajos ingresos entre 1 y3 millones mensualees con interéses de afiliación a la comunidad de a2censo que estan invirtiendo en promedio 15 veces, demostrando una recurrencia de inversiones de bajos montos
#Analisis desde la recurrencia de inversión a la luz de las demás variables de interés cualitativas y cuantitativas
## `summarise()` has grouped output by 'CodEsInversionistaRecurrente'. You can
## override using the `.groups` argument.
Podemos encontrar como los montos promedios invertidos suelen ser mayores en inversionistas no recurrentes con rangos de edad superiores a los 55 años
## `summarise()` has grouped output by 'CodEsInversionistaRecurrente'. You can
## override using the `.groups` argument.
Podemos encontrar como en inversionistas recurrentes el promedio de inversiones es 6 inversiones respecto a mas o menos 20 inversiones que suelen realizar los inversionistas recurrentes
#Analisis desde los rangos de edad y rangos de ingresos a la luz de las variables cuantitativas de interés
## `summarise()` has grouped output by 'GrupoIngresos'. You can override using the
## `.groups` argument.
ahora bien, al realizar el analisis entre rangos de edad y de ingresos podemos observar como los mayores valores promedio de inversión se encuentran en personas con ingresos entre 3y 5 millones de mas de 65 años. personas con ingresos entre 7 y 9 millones con rangos de eedad entre 55 a 65 y las personas con ingresos de mas de 10 millones de pesos.
Analisis
## `summarise()` has grouped output by 'GrupoIngresos'. You can override using the
## `.groups` argument.
Finalmente podemos observar que de acuerdo al valor promedio de inversiones realizads, los grupos con mayor recurrencia de inversión se encuentra en las edades entre 45 y 55 años con ingresos entre 7 y 9 millones. Por otro lado personas con ingresos superiores a 10 MM suelen invertir de manera más recurrente.
## [1] 0.144479
## [1] 0.09333871
## [1] 0.2583145
## [1] -0.02984937
Se encuentra que desde una correlacion lineal simple no hay correlación entre ninguna de las variables a la luz de la variable monto inversión.
## [1] 0.1549182
## [1] 0.09968228
## [1] 0.2861183
## [1] -0.02984937
Se encuentra que desde una correlacion lineal simple no hay correlación entre ninguna de las variables a la luz de la variable cantidad de inversiones.
#Grafico General de Correlaciones lineales
En el anterior grafico podemos observar que aunque dichas correlaciones no son significativas la relación entre las variables Ingresos mes y patrimonio y la relación entre las variables patrimonio y edad son más fuertes respecto a las demás.
Para facilidad de interpretación de las gráficas se pretende manejar una escala lo más similar posible por lo tanto se transformarán las variables de: ingreso mes , monto de inversión y patrimonio a millones dividiendo en un millón.
Realizamos un diagrama de las variables cuantitativas con sus distribuciones y correlaciones, para identificar magnitud y sentido de la relación entre ellas
Luego de analizar las diferentes correlaciones entre variables cuantitativas identificamos que la mayor correlación se presenta entre el patrimonio y la edad (0.44) le sigue la correlación que se da entre la cantidad de inversiones con el patrimonio (0.29 ) y la siguiente es la correlación que se da entre monto de inversión y patrimonio con un 0.26
Dentro de los objetivos que se han planteado en este proyecto se pretende encontrar un modelo que pueda predecir el valor del monto de inversión dado las variables dependientes con las que se cuenta. Viendo que el monto de inversión presenta una correlación alrededor del 0.26 (aunque es una correlación moderada), plantearemos preliminarmente un modelo de regresión lineal simple que relacione precisamente estas dos variables patrimonio y monto de inversión.
Modelo de Regresion Lineal Simple
##
## Call:
## lm(formula = MontoInversion ~ Patrimonio, data = BDa2censo)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.7563 -0.5720 -0.3720 0.2126 4.5592
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.72589296 0.00856002 84.80 <0.0000000000000002 ***
## Patrimonio 0.00153797 0.00003587 42.88 <0.0000000000000002 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.034 on 25718 degrees of freedom
## Multiple R-squared: 0.06673, Adjusted R-squared: 0.06669
## F-statistic: 1839 on 1 and 25718 DF, p-value: < 0.00000000000000022
## (Intercept) Patrimonio
## 0.725892957 0.001537974
El modelos obtenido tiene la forma:
MontoInversion = 0.72 + Patrimonio*0.0015 Evidenciamos que aunque tanto el coeficiente como el intercepto resultan ser significativos dentro del análisis, el R2 ajustado que nos arroja este modelo es muy bajo (6.6%). Es decir que solo el 6.6% de porcentaje de variación en la variable de respuesta ( monto inversion) es explicado por su relación con la variable predictora (Patrimonio)
Dado a este bajo desempeño del modelo de regresión lineal simple, buscaremos alternativas con un modelo de regresión múltiple incluyendo las otras variables o información disponible dentro de nuestra data. Intentaremos encontrar o predecir el monto de la inversión incluyendo la relación que puede existir con la edad del inversionista, con los ingresos mensuales, con la tasa a la cual se pacta el retorno de su inversión y otras variables que están bajo el análisis. Esperamos que con esto el desempeño del modelo sea mucho mejor.
Modelo de Regresión Lienal Multiple
##
## Call:
## lm(formula = MontoInversion ~ Edad + Tasa + IngresosMes + Patrimonio +
## CantidadInversiones, data = BDa2censo)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.1659 -0.5821 -0.3297 0.2066 4.5504
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.08695033 0.07034580 1.236 0.216
## Edad 0.00433078 0.00072268 5.993 0.00000000209 ***
## Tasa 5.31433292 0.62444368 8.511 < 0.0000000000000002 ***
## IngresosMes 0.00584545 0.00054045 10.816 < 0.0000000000000002 ***
## Patrimonio 0.00157547 0.00004086 38.558 < 0.0000000000000002 ***
## CantidadInversiones -0.01042623 0.00054229 -19.226 < 0.0000000000000002 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.023 on 25714 degrees of freedom
## Multiple R-squared: 0.08625, Adjusted R-squared: 0.08607
## F-statistic: 485.4 on 5 and 25714 DF, p-value: < 0.00000000000000022
## (Intercept) Edad Tasa IngresosMes
## 0.086950331 0.004330777 5.314332923 0.005845453
## Patrimonio CantidadInversiones
## 0.001575472 -0.010426229
El modelo de regresion multiple obtenido tiene la forma:
MontoInversion = 0.086 + Edad0.004 + Tasa5.31 + IngresosMes 0.0058 + Patrimonio0.0015 - CantidadInversiones*0.0104
Luego del análisis, podemos evidenciar que tanto el intercepto como los coeficientes de las variables predictoras: edad, tasa.ingresos mes, patrimonio, cantidad de inversiones son significativos ( a un nivel de significancia del 0.5%) la medida de desempeño R2ajustado sigue siendo muy bajo. Para este caso del modelo de regresión múltiple nos dio un 8.6% aproximadamente ( Solo el 8.6% de la variabilidad en los datos se puede explicar por el modelo). Es una leve mejoría con el modelo presentado anteriormente, pero va en contra del principio de parsimonia ya que hemos agregado y cuatro variables adicionales y la mejora fue prácticamente insignificante.
Propendiendo por el principio de parsimonia aplicaremos el algoritmo step para encontrar quizás una mejor combinación de variables que nos permitan un mejor índice de pérdida de información o AIC para un modelo de regresión múltiple
Luego de correr el algoritmo evidenciamos que el modelo que nos propone con menor pérdida de información AIC 1182.07 es el modelo que previamente hemos definido (modeloMultiple1), que incluye todas las variables predictoras cuantitativas
## Start: AIC=1182.07
## MontoInversion ~ Edad + Tasa + IngresosMes + Patrimonio + CantidadInversiones
##
## Df Sum of Sq RSS AIC
## <none> 26917 1182.1
## - Edad 1 37.59 26955 1216.0
## - Tasa 1 75.82 26993 1252.4
## - IngresosMes 1 122.46 27040 1296.8
## - CantidadInversiones 1 386.95 27304 1547.2
## - Patrimonio 1 1556.24 28473 2625.7
##
## Call:
## lm(formula = MontoInversion ~ Edad + Tasa + IngresosMes + Patrimonio +
## CantidadInversiones, data = BDa2censo)
##
## Coefficients:
## (Intercept) Edad Tasa
## 0.086950 0.004331 5.314333
## IngresosMes Patrimonio CantidadInversiones
## 0.005845 0.001575 -0.010426
#Paso4 Validacion de Supuestos Es muy importante al momento de realizar un modelo de regresión lineal validar el cumplimiento de los supuestos ya que podemos ya que sin esta validación podemos caer en la estimación de variables no confiables
Los predictores deben ser independientes,no debe de haber colinialidad entre ellos , para validar esto calculamos FACTOR DE INFLACION DE LA VARIANZA(VIF)
## Edad Tasa IngresosMes Patrimonio
## 1.241702 1.007372 1.035539 1.325390
## CantidadInversiones
## 1.095531
Este resultado para todas las variables predciotres no esta dando ligeramente mayor a 1 , por lo tanto hay un indicio de una posible colinialidad. Es relvante seguir evaluando los demas supuestos, par atebner la certeza q no se cumple y q no se podria usar un modelo de regresion como herramienta predicora.
Para evaluar la influencia que tienen los predictores sobre la variable dependiente
Luego de graficar los residuos para cada variable predictora podemos identificar comportamientos aleatorios sobre el valor cero pero de alguna manera desiguales en los sentidos positivo y negativos. La gran mayoría de los residuos para cada variable predictora se encuentran por encima cero, No se cumple que se distribuyan en igual proporción alrededor del cero esto indicaría que este supuesto no se cumpliría
##3. Distribuciónnormaldelosresiduos
La media de los residuos nos da aproxidamente cero (-1.30e-16) , mas sin embargo la distribucion de los residuos estudentizados presentean una comportamiento anomalo ( gran parte de los residuos superan el limite de 2). Este comporamtiento lo podemos evidenciar en la grafica Normal QQplot donde es calro que los residus no se ajustan sobre la diagonal de los Quantiles teoricos , por lo tanto este supuesto tampoco se satisface.
## [1] -0.0000000000000001302145
##4.Homocedasticidad
Para valdiar este supuesto acudiremos a realizar el test de Breusch-Pagan, el cual nos arrojo un p-value de 2.2e-16 , lo cual nso permite rechazr la hipotesis nula q existe varibilidad constante de los residuos. Es decir q no se presenta homcedasticidad, imcumpliendo asi el supuesto . Adcionalmente en la grafica podemos observar un incremnto en valor absoluto de los residuos estudentizados, confirmando la heterocedasticidad de los residuos.
##
## studentized Breusch-Pagan test
##
## data: modeloMultiple1
## BP = 1108.5, df = 5, p-value < 0.00000000000000022
##
## Suggested power transformation: -0.2003072
Para validar esto supuesto , realizamos prueba Durbin Watson y evidecmoa q el p-value nos da ceor por lo tanto se rechaza la hipotesis nula , tambien podemos ver graficamente la que si existe autocorrelacion
## lag Autocorrelation D-W Statistic p-value
## 1 0.9619126 0.07553598 0
## Alternative hypothesis: rho != 0
Con animo ilustrativo y para confirmar se realiza una representación 3D de la regresión con solo dos variables predictoras ( edad y patrimonio)
## Loading required package: rgl
##
## Call:
## lm(formula = z ~ x + y)
##
## Coefficients:
## (Intercept) x y
## 0.583237 0.004267 0.001436
De acuerdo a los objetivos planteados para el presente estudio existe un alto interés por parte de la compañía en conocer si existe alguna variable que nos permita predecir la fidelización de los clientes con el producto, entendiendo que la mejor variable que nos puede hablar de fidelización es la recurrencia de inversión. Por esto se analizarán las variables para identificar si alguna de ellas o un conjunto de ellas permiten predecir el comportamiento de inversión referente a la recurrencia.Siendo asi plantearemos un modelo de regresion logisitica que no permita estimar la probabilidad de recurrencia de un inversionista.
##
## Attaching package: 'magrittr'
## The following object is masked from 'package:tidyr':
##
## extract
##
## Call:
## glm(formula = Inv_Recurrente ~ MontoInversion + Edad + IngresosMes +
## Patrimonio + SectorCampaña + Propósito, family = binomial,
## data = training)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -2.0912 -0.8618 -0.6968 1.2166 2.1939
##
## Coefficients:
## Estimate Std. Error z value
## (Intercept) -1.9246331 0.2979440 -6.460
## MontoInversion -0.2243309 0.0166163 -13.501
## Edad 0.0173327 0.0017639 9.826
## IngresosMes 0.0092231 0.0013452 6.856
## Patrimonio 0.0022523 0.0001008 22.348
## SectorCampañaAlcantarillado 0.2878625 0.3045023 0.945
## SectorCampañaAlojamiento Y Servicios De Comida -0.0295437 0.2920597 -0.101
## SectorCampañaAutomotriz 0.5099706 0.2968569 1.718
## SectorCampañaComercio al por mayor 0.3723162 0.2912361 1.278
## SectorCampañaComercio Al Por Menor 0.0446268 0.2923675 0.153
## SectorCampañaEducación 1.0029118 0.3505771 2.861
## SectorCampañaEntretenimiento 0.5914717 0.3454151 1.712
## SectorCampañaIndustrías Creativas Y Culturales 0.6087700 0.3732196 1.631
## SectorCampañaInformación y Comunicaciones 0.7096011 0.2925527 2.426
## SectorCampañaInmobiliarias -0.0060257 0.2926296 -0.021
## SectorCampañaInvestigación y Ciencias 0.1011636 0.2947185 0.343
## SectorCampañaManufactura 0.4045251 0.2898151 1.396
## SectorCampañaSalud 0.4026100 0.3058514 1.316
## SectorCampañaSaneamiento Ambiental -0.2091516 0.3053564 -0.685
## SectorCampañaServicios Administrativos -0.2422360 0.2926781 -0.828
## SectorCampañaServicios Domésticos 0.8118238 0.3515981 2.309
## SectorCampañaServicios Energéticos 0.2204440 0.2981431 0.739
## SectorCampañaTransporte y Almacenamiento 0.1203064 0.3000769 0.401
## PropósitoAprender de financiación 0.1616005 0.0884718 1.827
## PropósitoDiversificar mi portafolio de inversión 0.3406143 0.0533117 6.389
## PropósitoHacer parte de la comunidad a2censo - -0.4472824 0.1410949 -3.170
## PropósitoRentabilizar portafolio de inversión -0.0382445 0.0525907 -0.727
## Pr(>|z|)
## (Intercept) 0.00000000010490 ***
## MontoInversion < 0.0000000000000002 ***
## Edad < 0.0000000000000002 ***
## IngresosMes 0.00000000000707 ***
## Patrimonio < 0.0000000000000002 ***
## SectorCampañaAlcantarillado 0.34448
## SectorCampañaAlojamiento Y Servicios De Comida 0.91943
## SectorCampañaAutomotriz 0.08581 .
## SectorCampañaComercio al por mayor 0.20111
## SectorCampañaComercio Al Por Menor 0.87868
## SectorCampañaEducación 0.00423 **
## SectorCampañaEntretenimiento 0.08683 .
## SectorCampañaIndustrías Creativas Y Culturales 0.10286
## SectorCampañaInformación y Comunicaciones 0.01529 *
## SectorCampañaInmobiliarias 0.98357
## SectorCampañaInvestigación y Ciencias 0.73141
## SectorCampañaManufactura 0.16277
## SectorCampañaSalud 0.18805
## SectorCampañaSaneamiento Ambiental 0.49338
## SectorCampañaServicios Administrativos 0.40787
## SectorCampañaServicios Domésticos 0.02095 *
## SectorCampañaServicios Energéticos 0.45967
## SectorCampañaTransporte y Almacenamiento 0.68848
## PropósitoAprender de financiación 0.06776 .
## PropósitoDiversificar mi portafolio de inversión 0.00000000016686 ***
## PropósitoHacer parte de la comunidad a2censo - 0.00152 **
## PropósitoRentabilizar portafolio de inversión 0.46710
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 24421 on 19289 degrees of freedom
## Residual deviance: 22772 on 19263 degrees of freedom
## AIC: 22826
##
## Number of Fisher Scoring iterations: 4
Desde el modelo de regresion logistica ajustado se encuentra que el sector económico de la campaña es una variable con un nivel de significancia en la variable respuesta de recurrencia del inversionista. De la misma forma en que muestra significancia respecto a los propósitos de inversión de diversificacion del portafolio y el motivador de hacer crecer el capital.
De otro lado, las variables, monto inversión, edad, patrimonio e ingresos mes tambien muestran significancia respecto a la variable asociada a si el individuo es inversionista recurrente o no.
Probaremos con otros modelos descartando algunas variables con el animo de comparar el criterio de perdida de informacion AIC y escoger el mejor modelo
##
## Call:
## glm(formula = Inv_Recurrente ~ MontoInversion + Edad + IngresosMes +
## Patrimonio, family = binomial, data = training)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -1.8052 -0.8464 -0.7460 1.2711 2.1235
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -1.57829952 0.06327048 -24.945 < 0.0000000000000002 ***
## MontoInversion -0.21313284 0.01633425 -13.048 < 0.0000000000000002 ***
## Edad 0.01583860 0.00172735 9.169 < 0.0000000000000002 ***
## IngresosMes 0.00831926 0.00125744 6.616 0.0000000000369 ***
## Patrimonio 0.00242873 0.00009816 24.744 < 0.0000000000000002 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 24421 on 19289 degrees of freedom
## Residual deviance: 23218 on 19285 degrees of freedom
## AIC: 23228
##
## Number of Fisher Scoring iterations: 4
##
## Call:
## glm(formula = Inv_Recurrente ~ MontoInversion + Edad + IngresosMes +
## Patrimonio, family = binomial, data = training)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -1.8052 -0.8464 -0.7460 1.2711 2.1235
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -1.57829952 0.06327048 -24.945 < 0.0000000000000002 ***
## MontoInversion -0.21313284 0.01633425 -13.048 < 0.0000000000000002 ***
## Edad 0.01583860 0.00172735 9.169 < 0.0000000000000002 ***
## IngresosMes 0.00831926 0.00125744 6.616 0.0000000000369 ***
## Patrimonio 0.00242873 0.00009816 24.744 < 0.0000000000000002 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 24421 on 19289 degrees of freedom
## Residual deviance: 23218 on 19285 degrees of freedom
## AIC: 23228
##
## Number of Fisher Scoring iterations: 4
De acuerdo a lo anterior encontramos que el modelo en donde menor pérdida de información es el designado con nombre: logMultiple , en donde el AIC es de 22826. Asociado a las variables MontoInversion + Edad + IngresosMes + Patrimonio + SectorCampaña + Propósito . No obstatne dentro de las variables cualitativas no todas sus categorías tienen un nivel de significancia relevante, por ejemplo para la variable sector de campaña, las categorías de variables con mayor nivel de significancia son: Educación, Información y Comunicación, y Servicios Domésticos. Para el caso del propósito se destacan: Diversificar Portafolio y Pertenecer a la comunidad de a2censo.
Inv_Recurrente = e (-1,925-0,0000002243MontoInversion+0,01733Edad+0,000000009223IngresosMes+0,000000002252Patrimonio+0,2879SectorCampañaAlcantarillado-0,02954SectorCampañaAlojamiento Y Servicios De Comida+0,51SectorCampañaAutomotriz+0,3723SectorCampañaComercio al por mayor+0,04463SectorCampañaComercio Al Por Menor+1,003SectorCampañaEducación+0,5915SectorCampañaEntretenimiento+0,6088SectorCampañaIndustrías Creativas Y Culturales+0,7096SectorCampañaInformación y Comunicaciones-0,006026SectorCampañaInmobiliarias+0,1012SectorCampañaInvestigación y Ciencias+0,4045SectorCampañaManufactura+0,4026SectorCampañaSalud-0,2092SectorCampañaSaneamiento Ambiental-0,2422SectorCampañaServicios Administrativos+0,8118SectorCampañaServicios Domésticos+0,2204SectorCampañaServicios Energéticos+0,1203SectorCampañaTransporte y Almacenamiento+0,1616PropósitoAprender de financiación+0,3406PropósitoDiversificar mi portafolio de inversión-0,4473PropósitoHacer parte de la comunidad a2censo-0,03824PropósitoRentabilizar portafolio de inversión) / (1+e(-1,925-0,0000002243MontoInversion+0,01733Edad+0,000000009223IngresosMes+0,000000002252Patrimonio+0,2879SectorCampañaAlcantarillado-0,02954SectorCampañaAlojamiento Y Servicios De Comida+0,51SectorCampañaAutomotriz+0,3723SectorCampañaComercio al por mayor+0,04463SectorCampañaComercio Al Por Menor+1,003SectorCampañaEducación+0,5915SectorCampañaEntretenimiento+0,6088SectorCampañaIndustrías Creativas Y Culturales+0,7096SectorCampañaInformación y Comunicaciones-0,006026SectorCampañaInmobiliarias+0,1012SectorCampañaInvestigación y Ciencias+0,4045SectorCampañaManufactura+0,4026SectorCampañaSalud-0,2092SectorCampañaSaneamiento Ambiental-0,2422SectorCampañaServicios Administrativos+0,8118SectorCampañaServicios Domésticos+0,2204SectorCampañaServicios Energéticos+0,1203SectorCampañaTransporte y Almacenamiento+0,1616PropósitoAprender de financiación+0,3406PropósitoDiversificar mi portafolio de inversión-0,4473PropósitoHacer parte de la comunidad a2censo-0,03824PropósitoRentabilizar portafolio de inversión))
Tambien definimos el valor del punto de corte o treshold para determinar la clasificaicon de la variable respuesta, con la funcion optCutOff, q nos permite determinar de manera automatica el punto de corte para la clasificacio de las observaciones del modelo propuesto.
## [1] 0.4576869
Por medio de la siguente matriz de confusion podemos evalaur el ajsute del modelo , tomado como criterio de corte el valor estimado 0.457 en el paso anterior.
## [1] 0.2728134
Se concluye que el modelo acertó en el 27% de las observaciones de verdaderos positivos ( Grado de Sensibilidad), es decir solo identifica un 27% de los positivos reales
## [1] 0.890707
La especificidad mide la tasa de verdadero negativos, es decir para este caso el modelo identifica el 89% de los negativos reales
La curva característica operativa o curva ROC permite identificar el rendimiento de un clasificador, en este caso el modelo de regresión logística. El área bajo la curva mide la relación entre la tasa de verdaderos positivos y la tasa de falsos positivos (1-Especificidad) en varios valores de umbral
El criterio de precision del modelo concluye que el 68% de las observaciones son acertadas. Y asu vez son evidencia de un modelos q no presta un nivel adecudo para la toma de decisiones.
A pesar de haber escogido un modelos con el menor criterio de pérdida de informacion aún el nivel de precision no es suficiente para tomar decisiones fiables en el futuro.
## [1] 37.04
## [1] 92.59374
## [1] 0.18
## [1] 0.42
## [1] 1.13
## [1] 92.59 36.21
## [1] 37.18177
## [1] 0
## [1] 0
## [1] 0
## [1] 0.9673676
## [1] 24194.8
## [1] 4.91
## [1] 24880.69
## Loading required package: sp
## Please note that rgdal will be retired by the end of 2023,
## plan transition to sf/stars/terra functions using GDAL and PROJ
## at your earliest convenience.
##
## rgdal: version: 1.5-32, (SVN revision 1176)
## Geospatial Data Abstraction Library extensions to R successfully loaded
## Loaded GDAL runtime: GDAL 3.3.2, released 2021/09/01
## Path to GDAL shared files: C:/Program Files/R/R-4.2.0/library/rgdal/gdal
## GDAL binary built with GEOS: TRUE
## Loaded PROJ runtime: Rel. 7.2.1, January 1st, 2021, [PJ_VERSION: 721]
## Path to PROJ shared files: C:/Program Files/R/R-4.2.0/library/rgdal/proj
## PROJ CDN enabled: FALSE
## Linking to sp version:1.4-7
## To mute warnings of possible GDAL/OSR exportToProj4() degradation,
## use options("rgdal_show_exportToProj4_warnings"="none") before loading sp or rgdal.
##
## Attaching package: 'rgdal'
## The following object is masked from 'package:fBasics':
##
## getDescription
## Linking to GEOS 3.9.1, GDAL 3.3.2, PROJ 7.2.1; sf_use_s2() is TRUE
## Warning in OGRSpatialRef(dsn, layer, morphFromESRI = morphFromESRI, dumpSRS =
## dumpSRS, : Discarded datum Marco_Geocentrico_Nacional_de_Referencia in Proj4
## definition: +proj=longlat +ellps=GRS80 +towgs84=0,0,0,0,0,0,0 +no_defs
## OGR data source with driver: ESRI Shapefile
## Source: "D:\Scripts_SQL\ProyectoEstadistica\ProyectoEstadistica\Sergio\MGN2021_DPTO_POLITICO", layer: "MGN_DPTO_POLITICO"
## with 33 features
## It has 9 fields
## Reading layer `MGN_DPTO_POLITICO' from data source
## `D:\Scripts_SQL\ProyectoEstadistica\ProyectoEstadistica\Sergio\MGN2021_DPTO_POLITICO\MGN_DPTO_POLITICO.shp'
## using driver `ESRI Shapefile'
## Simple feature collection with 33 features and 9 fields
## Geometry type: MULTIPOLYGON
## Dimension: XY
## Bounding box: xmin: -81.73562 ymin: -4.229406 xmax: -66.84722 ymax: 13.39473
## Geodetic CRS: MAGNA-SIRGAS
##
## Attaching package: 'raster'
## The following object is masked from 'package:plotly':
##
## select
## The following object is masked from 'package:MASS':
##
## select
## The following object is masked from 'package:dplyr':
##
## select
##
## Attaching package: 'leaflet'
## The following object is masked from 'package:xts':
##
## addLegend
## To enable caching of data, set `options(tigris_use_cache = TRUE)`
## in your R script or .Rprofile.
##
## Attaching package: 'tigris'
## The following object is masked from 'package:igraph':
##
## blocks
## `summarise()` has grouped output by 'Departamento'. You can override using the
## `.groups` argument.
## Warning: We recommend using the dplyr::*_join() family of functions instead.
## Warning: `group_by_()` was deprecated in dplyr 0.7.0.
## Please use `group_by()` instead.
## See vignette('programming') for more help
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was generated.
## Warning: sf layer has inconsistent datum (+proj=longlat +ellps=GRS80 +towgs84=0,0,0,0,0,0,0 +no_defs).
## Need '+proj=longlat +datum=WGS84'